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Zusammenfassung 

Im Zuge der web-basierten Kommunikation und in Anbetracht der gigantischen 
Datenmengen, die im World Wide Web (kurz: Web) verfügbar sind, erlangt das 
so genannte Web Mining eine immer stärkere Bedeutung. Ziel des Web Mining ist 
die Informationsgewinnung und Analyse web-basierter Daten auf der Grundlage 
von Data Mining-Methoden. Die eigentliche Problemstellung des Data Mining 
ist die Entdeckung von Mustern und Strukturen in großen Datenbeständen. Web 
Mining ist also eine Variante des Data Mining: es kann grob in drei Bereiche 
unterteilt werden: Web Structure Mining, Web Content Mining und Web Usage 
Mining. 



Die zentrale Problemstellung des Web Structure Mining, die in dieser Arbeit 
besonders im Vordergrund steht, ist die Erforschung und Untersuchung struk- 
tureller Eigenschaften web-basierter Dokumente. Das Web wird in dieser Ar- 
beit wie üblich als Hypertext aufgefasst. In der Anfangsphase der Hypertext- 
forschung wurden graphbasierte Indizes zur Messung struktureller Ausprägungen 
und Strukturvergleiche von Hypertexten verwendet. Diese sind jedoch im Hinblick 
auf die ähnlichkeitsbasierte Gruppierung graphbasierter Hypertextstrukturen un- 
zureichend. Daher konzentriert sich die vorliegende Arbeit auf die Entwicklung 
neuer graphentheoretischer und ähnlichkeitsbasierter Analysemethoden. 

Ähnlichkeitsbasierte Analysemethoden, die auf graphentheoretischen Modellen 
beruhen, können nur dann sinnvoll im Hypertextumfeld eingesetzt werden, wenn 
sie aussagekräftige und effiziente strukturelle Vergleiche graphbasierter Hyper- 
texte ermöglichen. Aus diesem Grund wird in dieser Arbeit ein parametrisches 
Graphähnlichkeitsmodell entwickelt, welches viele Anwendungen im Web Struc- 
ture Mining besitzt. Dabei stellt die Konstruktion eines Verfahrens zur Bestim- 
mung der strukturellen Ähnlichkeit, von Graphen eine zentrale Herausforderung 
dar. Klassische Verfahren zur Bestimmung der Graphähnlichkeit beruhen in den 
meisten Fällen auf Isomorphie- und Untergraphisomorphiebeziehungen. Dagegen 
wird in dieser Arbeit ein Verfahren zur Bestimmung der strukturellen Ähnlichkeit 
hierarchisierter und gerichteter Graphen entwickelt , welches nicht auf Isomorphie- 
beziehungen aufbaut. 

Oft wird im Rahmen von Analysen web-basierter Dokumentstrukturen das be- 
kannte Vektorraummodell zu Grunde gelegt. Auf der Basis eines graphbasierten 
Repräsentationsmodells wird dagegen in dieser Arbeit die These vertreten und 
belegt, dass die graphbasierte Repräsentation einen sinnvollen Ausgangspunkt 
für die Modellierung web-basierter Dokumente darstellt. In einem experimentel- 
len Teil werden die entwickelten Graphähnlichkeitsmaße erfolgreich evaluiert und 
die aus der Evaluierung resultierenden Anwendungen vorgestellt. 
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Kapitel 1 
Einleitung 



1.1 Motivation der Arbeit 



Die Untersuchung von Strukturen ist aus der Sicht vieler Wissenschaftsberei- 
che ein aktuelles Forschungsthema. Dabei ist die Strukturanalyse einerseits in 
anwendungsorientierten Disziplinen und andererseits in theorieorientierten For- 
schungsbereichen von zentraler Bedeutung: 



• In der Linguistik wird intensiv die Struktur von Sprache, z.B. die syntakti- 
sche Sprachstruktur (Bar-Hillel 1964; Chomsky 1976) untersucht. 

• Die soziologische Forschung betrachtet z.B. Kommunikationsstrukturen (Ba- 
velas 1950) und soziale Netzwerke (Harary 1959, 1974; Scott 2001). 

• In der Biologie und in der Biochemie spielen z.B. fraktale biologische Struk- 
turen (Sernetz 2001) eine große Rolle. 

• Die Elektrotechnik untersucht Strukturen von Stromverzweigungen, elek- 
trischer Netzwerke und Platinen. 



Aus diesen Beispielen geht zunächst nicht hervor, mit welchen Methoden und 
Formalismen die jeweiligen Strukturen modelliert werden. 

Da in dieser Arbeit relationale Strukturen in Form von Graphen als Repräsentati- 
on komplexer Dokumentstrukturen eine wesentliche Rolle spielen, ist speziell das 
letzte Beispiel der obigen Aufzählung interessant. Kirchoff (Kirchhoff 1847) 
publizierte im Bereich der Elektrizitätslehre bereits 1847 eine wichtige Arbeit be- 
zogen auf die Theorie der Stromverzweigungen, die einen Grundstein der inoder- 
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nen Graphentheorie 1 legte. Daran schlossen sich richtungsweisende Beiträge 2 von 
Caley (Caley 1875), Petersen (Petersen 1891) und Sylvester (Sylvester 
1878) an, die ihre Wurzeln ebenfalls in der Graphentheorie besitzen. Heute ist die 
Beschreibung von Strukturen ohne graphbasierte Modelle in vielen Wissenschafts- 
und Lebensbereichen nicht mehr vorstellbar, wobei Graphen in der Informatik, 
z.B. für die Darstellung von Rechnernetzen, breite Anwendung 3 finden. 

Die vorliegende Arbeit ist thematisch in einem Teilbereich des Web Mining (Cha- 
krabarti 2002; Kosala & Blockeel 2000) - dem Web Structure Mining (Kosala 
& Blockeel 2000) - angesiedelt, weil sie strukturelle Modellierungsaspekte web- 
basierter 1 Dokumentstrukturen untersucht. Da der Umgang mit Computern all- 
gegenwärtig ist und die Menge an Dokumenten im Web bekanntlich exponentiell 
zunimmt, sind Hilfsmittel zur schnellen Erfassung, Klassifizierung und Auffin- 
dung von Dokumenten von zentraler Bedeutung. Längst wurde klar, dass Inhalt 
und Struktur vernetzter Dokumente hierbei relevant sind. Die vorliegende Ar- 
beit konzentriert sich auf Strukturaspekte web-basierter Dokumente, welche in 
jüngerer Zeit immer stärker ins Blickfeld rücken. 

Es existieren formale Ansätze (d’Inverno et al. 1997; Fronk 2003; Lange 1990; 
Mehler 2001), die strukturelle Aspekte hypertextueller Dokumente beschreiben. 
Die ersten bekannten Arbeiten, die insbesondere die strukturelle Analyse von 
Hypertexten auf der Basis graphentheoretischer Methoden fokussierten, stammen 
von (Botafogo & Shneiderman 1991; Botafogo et al. 1992; Botafogo 1993). Dabei 
wurden bekannte Konzepte 5 der Graphentheorie verwendet, um Maßzahlen - so 
genannte Indizes (Dehmer 2005; Mehler 2004) - für die Beschreibung strukturel- 
ler Hypertextausprägungen zu entwickeln. Beispielsweise definierten BOTAFOGO 
et al. (Botafogo et al. 1992) als einen typischen Vertreter das bekannte Maß Com- 
pactness 6 , welches den Grad der Vernetztheit einer Hypertextstruktur beschreibt. 
Die Aussagekraft solcher Maße ist jedoch sehr eingeschränkt, da die zu beschrei- 
bende Ausprägung auf eine einzige Maßzahl abgebildet wird. Damit folgt weiter, 
dass solche Maße nicht eindeutig interpretierbar sind. Unmittelbar daraus resul- 
tiert ein Problem, welches sich bislang negativ auf die Analyse hypertextueller 
Dokumente auswirkte (Dehmer 2005): Wegen der nicht eindeutigen Interpre- 
tierbarkeit und der damit verbundenden mangelnden Aussagekraft dieser Maße, 
ist eine Gruppierung ähnlicher Strukturen nicht möglich, mit dem Ziel, ähnli- 
che Funktionen oder sogar Qualitätsmerkmale abzuleiten. Ein wichtiger Schritt 



'Siehe Kapitel (4.1.1). 

2 Weitere historische Beiträge zur Graphentheorie findet man z.B. im ersten Lehrbuch der 
Graphentheorie, welches von KÖNIG (König 1935) verfasst wurde. 

3 Für weitere Anwendungen siehe Kapitel (4.1.1). 

4 Web ist die Bezeichnung für das World Wide Web (WWW) (Bernes-Lee 2000). 

5 Siehe Kapitel (2.3.2). 

6 Siehe Kapitel (2.3.2). 
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für die Gruppierung strukturell ähnlicher Hypertexte wäre die Entwicklung von 
Analysemethoden, die ganzheitliche Strukturvergleiche auf zwei gegebenen Hy- 
pertextgraphen zulassen. 

Strukturelle Vergleiche hypertextueller Graphmuster, bezogen auf die Interpreta- 
tion lernpsychologischer Fragestellungen, führten z.B. Winne et al. (Winne et al. 
1994) durch, wobei der Index Multiplicity' definiert wurde. Dabei ist Multiplici- 
ty lediglich auf der Basis der Kantenschnittmenge zweier Graphmuster definiert. 
Das impliziert, dass signifikante strukturelle Unterschiede zwischen Graphmu- 
stern durch die so erzielten Ähnlichkeitswerte nicht erfasst werden. Im Hinblick 
auf eine ähnlichkeitsbasierte Gruppierung folgt schließlich, dass die entstehenden 
Gruppierungen keine weitreichende Aussagekraft besitzen und damit schlecht in- 
terpretiert werden können. Somit scheidet die Klasse von Ähnlichkeitsmaßen, die 
auf der Basis der Kantenschnittmenge definiert ist, für zukünftige ähnlichkeitsba- 
sierte Analysen aus. Um eine bessere Wirkung hypertextueller Graphvergleiche zu 
erzielen, welche sich letztlich in einer wesentlich aussagekräftigeren Modellierung 
web-basierter Hypertexte auswirkt, wird in dieser Arbeit ein deutlich aussagefähi- 
geres Graphähnlichkeitsmodell entwickelt. Die eigentliche Zielsetzung der Arbeit 
und daraus resultierende Anforderungen werden nun in Kapitel (1.2) dargestellt. 



1.2 Zielsetzung der Arbeit 

In Kapitel (1.1) wurden Probleme graphentheoretischer Indizes kurz gefasst be- 
schrieben. Der Einsatz graphbasierter Repräsentationen zur Modellierung web- 
basierter Hypertexte im Hinblick auf Anwendungen im Web Structure Mining 
kann demnach nur dann erfolgreich sein, wenn die darauf aufbauenden Analy- 
semethoden so viel komplexe Strukturmerkmale wie möglich erfassen. Daraus 
ergibt sich die Anforderung ein Verfahren zu entwickeln, welches die strukturel- 
le Ähnlichkeit graphbasierter Hypertexte ganzheitlich bestimmt. Dies stellt die 
eigentliche Herausforderung dieser Arbeit dar. 

Das Hauptziel dieser Arbeit ward nun folgendermaßen formuliert: 

Das Hauptziel besteht in der Entwicklung ähnlichkeitsbasierter Ana- 
lysemethoden hypertextueller Dokumente auf der Basis ihrer hierar- 
chischen Graphstruktur, um einerseits anwendungsbezogene Problem- 
stellungen im Web Structure Mining , z.B. die strukturorientierte Fil- 
terung, besser als bisher zu lösen. Andererseits sollen die entwickel- 
ten ähnlichkeitsbasierten Analysemethoden so fl,exibel sein, dass sie 

'Siehe Kapitel (2.3.2). 
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für graphorientierte Problemstellungen in anderen Forschungsgebie- 
ten (Emmert-Streib et dl. 2005) einzusetzen sind. 

Die Frage nach der Notwendigkeit eines graphbasierten Repräsentationsmodells 
für die adäquate Modellierung hypertextueller Dokumente wurde hierbei durch 
eine grundlegende Arbeit von Mehler et al. (Mehler et al. 2004) aufgeworfen. 
Dabei vertreten Mehler et al. in (Mehler et al. 2004) die These, dass auf Grund 
der Phänomene Polymorphie und funktionale Äquivalenz web-basierte Einheiten 
nicht eindeutig kategorisierbar sind. Da in (Mehler et al. 2004) das bekannte 
Vektorraummodell (Ferber 2003; Mehler 2001) als Standardrepräsentation für 
web-basierte Dokumente eingesetzt wurde, ist die Frage nach der Erprobung eines 
neuen Repräsentationsmodells gerechtfertigt. 

In dieser Arbeit wird die These zu Grunde gelegt und belegt, dass die graphba- 
sierte Repräsentation hypertextueller Dokumente einen zentralen Ausgangspunkt 
einerseits für graphbasierte Modellierungen und ähnlichkeitsbasierte Analyseal- 
gorithmen und andererseits für anwendungsorientierte Aufgaben im Web Struc- 
ture Mining darstellt. Dabei stellt die ganzheitliche Bestimmung der struktu- 
rellen Ähnlichkeit graphbasierter Dokumentstrukturen zunächst ein schwieriges 
Problem dar. Die bekannten Verfahren zur Bestimmung der Graphähnlichkeit 
beruhen nämlich in vielen Fällen auf Isomorphie- und Untergraphisomorphie- 
beziehungen (Kaden 1982; Sobik 1982; Zelinka 1975). Da diese aus Kom- 
plexitätsgründen (Arvind & Kurur 2002; Ullmann 1976) für Graphen höherer 
Ordnung nicht anwendbar sind, scheidet diese Verfahrensklasse zur massendaten- 
orientierten Anwendung im Web Structure Mining aus. Deshalb ist ein Verfahren 
zur Bestimmung der Graphähnlichkeit im Web Structure Mining nur dann sinn- 
voll einsetzbar, wenn es große Datenmengen hinsichtlich Graphen höherer Ord- 
nung verarbeiten kann. Eine Vorgehensweise zur Ermittlung geeigneter Verfahren 
könnte - beispielhaft - sukzessiv folgende Fragen untersuchen: 

• Gibt es Ansätze und Ideen, die Isomorphie- und Untergraphisomorphiebe- 
ziehungen aus Effizienzgründen umgehen? 

• Existieren strukturelle Kennzahlen 8 der zu betrachtenden Graphen, die effi- 
zient zu berechnen sind? 

• Wenn ja, sind solche Kennzahlen überhaupt zur Definition von Graphähn- 
lichkeitsmaßen aussagekräftig genug? 

• Sind ausreichende Möglichkeiten für die Gewichtung unterschiedlicher struk- 
tureller Aspekte (z.B. bei hierarchischen Graphen die Berücksichtigung der 
Höhenunterschiede 9 ) gegeben? 
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8 Siehe Kapitel (5.1). 
9 Siehe Kapitel (5.7). 




• Wie kann weiter vorgegangen werden, falls ein Graphähnlichkeitsmaß ge- 
wisse Anforderungen nicht erfüllt? Sind mögliche Defizite auf der Basis von 
Parametern ausgleichbar? 

• Ist weitergehend die Entwicklung eines Verfahrens möglich, das auf Grund 
seiner Konstruktion eine ganze Klasse von Ähnlichkeitsmaßen definiert? 

• Sind solche Graphähnlichkeitsmaße nur im Bereich web-basierter Hypertex- 
te nutzbar oder können sie auf Grund ihrer Konzeption überall dort ein- 
gesetzt werden, wo Graphähnlichkeitsprobleme bezüglich derselben Graph- 
klasse 10 gestellt werden? 



Anhand dieser beispielhaften Vorgehensweise gewinnt man einen Eindruck über 
die Vielzahl der Fragestellungen, die auf der Suche nach einem Verfahren zur Be- 
stimmung der strukturellen Graphähnlichkeit beantwortet werden müssen. Ent- 
sprechend ist es für die vorliegende Arbeit von zentraler Bedeutung ein Graphähn- 
lichkeitsmodell zu entwickeln, welches zur Lösung graphorientierter Problemstel- 
lungen im Web Structure Mining und verwandter Aufgaben in anderen For- 
schungsbereichen beiträgt. 



1.3 Aufbau der Arbeit 



Nach der Einleitung in Kapitel (1) gibt Kapitel (2) einen Überblick über be- 
stehende Data Mining- Konzepte (Han & Kamber 2001), wobei vor allem exi- 
stierende Arbeiten der graphentheoretischen Analyse von Hypertexten detailliert 
besprochen werden. Weiter werden insbesondere die Clusteringv er fahren (Bock 
1974; Everitt 1993) ausführlich diskutiert, da sie in dieser Arbeit ein wichtiges 
Bindeglied zur ähnlichkeitsbasierten Dokumentanalyse darstellen. Für die Argu- 
mentationslinie der Arbeit sind die Phänome Polymorphie (Melder et al. 2004) 
und funktionale Äquivalenz (Mehler et al. 2004) von wesentlicher Bedeutung. 
Vorbereitend für ein Experiment im Bereich der inhaltsbasierten Kategorisierung 
werden in Kapitel (2) die dazu notwendigen Begriffe, zusammen mit einem graph- 
basierten Repräsentationsmodell (Mehler et al. 2004), eingeführt. 

Das Kapitel (3) zeigt die Grenzen der inhaltsbasierten Kategorisierung in Form 
eines Experiments auf. Die Hypothese dieses Kapitels ist, dass Polymorphie und 
funktionale Äquivalenz charakteristisch für web-basierte Einheiten sind. Nach 
einer formellen Charakterisierung der Problemstellung werden die Ergebnisse der 

10 Die in dieser Arbeit betrachtete Graphklassc besteht aus knotenmarkierten, hierarchisierten 
und gerichteten Graphen. Siehe Kapitel (5.3). 




SVM-Kategorisierung 11 interpretiert. Sie untermauern dabei nachhaltig die zu 
Anfang aufgestellte Hypothese. 

Die zusammengefasste Beschreibung des Forschungsstandes und der Kernauf- 
gaben hinsichtlich der Graphentheorie ist Gegenstand von Kapitel (4). Neben 
einer Diskussion über den Ähnlichkeitsbegriff und der Einführung wesentlicher 
Begriffe, wie z.B. Metrik, Abstand und Distanz, werden bekannte Methoden zur 
Bestimmung der strukturellen Ähnlichkeit von Graphen beschrieben. Das Ziel 
von Kapitel (4) besteht insbesondere darin, die mathematischen Fundamente der 
existierenden Verfahren zu beleuchten, um damit eine Abgrenzung zum neuen 
Ansatz leichter zu erreichen. 

In Kapitel (5) wird zunächst die Motivation und der zentrale Lösungsansatz 
zur Bestimmung der Graphähnlichkeit hierarchischer Graphen angegeben. Es 
stellt sich heraus, dass die Gradsequenzen gerichteter Graphen eine aussage- 
kräftige Basis des neuen Verfahrens darstellen, jedoch nicht in Form einfacher 
Gradsequenzvektor- Vergleiche 12 . Der wesentliche Aspekt, durch den sich das neue 
Verfahren von den in dieser Arbeit behandelten bekannten Verfahren abhebt, ist, 
dass die jeweiligen Graphen zunächst in eindimensionale Strukturen transfor- 
miert werden. Die transformierten Strukturen werden auf der Basis bekannter 
Alignment-Techniken 13 (Gusfield 1997) weiterverarbeitet. Ein wichtiger Schritt 
in dieser Arbeit ist die Anwendung einer Gruppe multivariater Analyseverfahren 
(Backhaus et al. 2003), die Clusteringverfahren. Diese tragen zur Lösung an- 
wendungsorientierter Problemstellungen im Bereich des Web Structure Mining 
bei. Kapitel (5) schließt mit einer experimentellen Untersuchung ab. In dieser 
werden die entwickelten ähnlichkeitsbasierten Analysemethoden auf bestehende 
web-basierte Dokumente angewendet. 

Während sich der experimentelle Teil aus Kapitel (5) vornehmlich mit der an- 
wendungsbezogenen Interpretation der gewonnenen Clusterlösungen beschäftigt, 
verfolgt das Kapitel (6) einen darüber hinausgehenden Weg: Anhand vorgege- 
bener Ähnlichkeitswertverteilungen zweier Graphmengen, wird die strukturelle 
Beziehung zwischen den Graphmengen untersucht. Die Evaluierungsergebnisse 
belegen, dass das eingesetzte Graphähnlichkeitsmaß zur Erkennung komplexer 
Graphstrukturen geeignet ist. Weiter untermauern die Ergebnisse dieses Kapitels 
den sinnvollen Einsatz des verwendeten Graphähnlichkeitsmaßes im Web Struc- 
ture Mining. 

Kapitel (7) fasst die Ergebnisse der Arbeit zusammen. Abschließend erfolgt ei- 
nerseits ein kurz gefasster Ausblick bezogen auf weitere potenzielle Anwendungs- 

11 Siehe Kapitel (3.3). 

12 Siehe Definition (5.2.2) in Kapitel (5.2). 

13 Siehe Kapitel (5.5). 
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gebiete. Andererseits wird iin Rahmen des Ausblicks eine bereits bestehende An- 
wendung des Graphähnlichkeitsmodells aus Kapitel (5) erläutert, die nicht im 
Bereich des Web Mining angesiedelt ist, und eine Aufstellung weiterführender 
Fragestellungen angegeben. 



1.4 Wissenschaftlicher Beitrag der Arbeit 



Im Bereich der strukturellen Analyse von Hypertexten existieren viele bekannte 
Arbeiten, z.B. (Botafogo & Shneiderman 1991; Botafogo et al. 1992; Botafogo 
1993; Winne et al. 1994; Unz 2000). die insbesondere auf graphentheoretischen 
Modellierungsmethoden basieren. Ein Großteil dieser Arbeiten beschäftigt sich 
mit der Definition und Analyse graphentheoretischer Indizes, die bereits in Kapi- 
tel (1.1) erwähnt wurden. Dabei dienen Indizes meistens zur strukturellen Cha- 
rakterisierung typischer Hypertextausprägungen und zur Beschreibung von Gra- 
phmustern im Zusammenhang mit Hypert.ext-Navigationsproblemen (McEnea- 
ney 1999, 2000; Unz 2000). Da die Aussagekraft und Interpretierbarkeit solcher 
Indizes sehr beschränkt ist, eignen sich Indizes nicht für die ähnlichkeitsbasierte 
Gruppierung von Hypertexten, welche aber den Schlüssel für viele Anwendun- 
gen im Web Structure Mining darstellt. Diese Arbeit hat daher den Anspruch, 
graphentheoretische und ähnlichkeitsbasierte Methoden zur strukturellen Analy- 
se web-basierter Hypertexte zu entwickeln, damit bestehende Analysemethoden 
erweitert und verbessert werden. 

Anstatt des bekannten Vektorraumodells als Standardrepräsentation, wird in die- 
ser Arbeit ein graphbasiertes Repräsentationsmodell erprobt, welches auf hie- 
rarchisiertcn und gerichteten Graphen basiert. Dies geschieht mit dem Ziel, neue 
Repräsentationsmodelle für eine adäquate Modellierung hypertextueller Doku- 
mente zu erforschen. Die Vorarbeiten für die Entwicklung ähnlichkeitsbasierter 
Analysemethoden auf der Basis der hierarchischen Graphstruktur erfolgen in Ka- 
pitel (3). Kapitel (3) beschäftigt sich mit einem Experiment zur inhaltsbasierten 
Hypertextkategorisierung. Diesem Experiment liegen die von (Mehler et al. 2004) 
definierten Begriffe Polymorphie und funktionale Äquivalenz zu Grunde, welche 
hinsichtlich hypertextueller Dokumente neuartig sind. In Kapitel (5) wird ein 
zentraler Lösungsansatz zur Bestimmung der strukturellen Ähnlichkeit hierarchi- 
sierter und gerichteter Graphen vorgestellt. In der vorliegenden Arbeit findet das 
Graphähnlichkeitsmodell aus Kapitel (5) Anwendung bezüglich praxisorientierter 
Problemstellungen im Web Structure Mining. Mit Hilfe des Graphähnlichkeits- 
modells wird es möglich, ganzheitliche Strukturvergieiche auf Hypertextgraphen 
durchzuführen. Im Folgenden werden erzielte Erweiterungen auf der Basis des 
Graphähnlichkeitsmodells angegeben. Diese Erweiterungen zeigen eine wesentli- 
che Verbesserung des Index-Konzepts auf: 
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• Auf Grundlage des parametrischen Graphähnlichkeitsmodells ist die Be- 
tonung vielfältiger Strukturaspekte möglich, wobei damit alle komplexen 
Objektausprägungen erfasst werden. 

• Im Gegensatz zu Indizes ist nun die Anwendung multivariater Analyseme- 
thoden möglich. In dieser Arbeit werden speziell die Clusteringverfahren 
gewählt, wobei diese zu den Struktur entdeckenden Verfahren gehören. Auf 
der Basis aussagekräftiger Graphvergleiche werden damit viele Anwendun- 
gen verbessert, z.B. die strukturorientierte Filterung web-basierter Hyper- 
texte. 

• Insgesamt erhält man ein generisches Modell zur Messung der strukturel- 
len Ähnlichkeit hierarchisierter und gerichteter Graphen, welches in allen 
drei Teilbereichen des Web Mining - Web Structure Mining, Web Usage 
Mining und Web Content Mining - anwendbar ist. Im Web Usage Mining 
ist das Graphähnlichkeitsmodell aus Kapitel (5) z.B. zur Erzeugung und 
Erforschung graphbasierter Benutzergruppen 14 einsetzbar. 

Die Bestimmung der strukturellen Ähnlichkeit von Graphen stellt ein mathema- 
tisch schweres Problem dar. Klassische Verfahren zur Bestimmung der Graphähn- 
lichkeit beruhen in den meisten Fällen auf Isomorphie- oder Untergraphisomor- 
phiebeziehungen. In Kapitel (4.4) erfolgen eine Diskussion und Bewertung be- 
kannter Verfahren zur Bestimmung der strukturellen Ähnlichkeit von Graphen. 
Diese zeigen, dass solche Verfahren im Hinblick auf jene graphorientierte Pro- 
blemstellungen nicht anwendbar sind, bei denen die Verarbeitung von Graphen 
höherer Ordnung gefragt ist. Eine zentrale Konstruktionsidee des neuen Modells 
aus Kapitel (5) besteht darin, dass die betrachteten Graphen auf der Basis ei- 
ner Abbildung in eindimensionale Strukturen transformiert werden. Es stellt sich 
heraus, dass die Ähnlichkeit der eindimensionalen Strukturen wesentlich effizi- 
enter bestimmt werden kann. Aus einer Menge von Ähnlichkeitswerten, die aus 
Alignments 15 der eindimensionalen Strukturen gewonnen werden, wird schließlich 
ein finaler Ähnlichkeitswert konstruiert, der die strukturelle Ähnlichkeit zweier 
Graphen ausdrückt. Kurz gefasst zeichnet sich das neue Modell durch die folgen- 
den Vorteile gegenüber bekannten Verfahren aus: 



• Starke Reduktion der Berechnungskomplexität. 

• Berücksichtigung komplexer Kantenstrukturen während des Graphvergleichs. 

• Hohe Flexibilität durch Parametrisierungsmöglichkeiten. 

14 Siehe Kapitel (7.2). 

15 Siehe Kapitel (5.5). 
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Auf Grundlage des neuen Modells wurden in dieser Arbeit folgende Ergebnisse 
erzielt und neue Anwendungsgebiete gefunden: 



• Bessere Beschreibungs- und Erforschungsmöglichkeiten bestehender graph- 
basierter Hypertexte. 

• Ableitung struktureller Aussagen bezüglich Testkorpora web-basierter Hy- 
pertexte. Dies geschieht z.B. auf Grundlage aussagekräftiger Ähnlichkeits- 
wertverteilungen . 

• Strukturorientierte Filterung web-basierter Dokumente in Form von DÜM- 
Strukturen. Die Evaluierung des dazugehörigen Clustering-Experiments, 
welches in Kapitel (5.8.2) durchgeführt wurde, zeichnet sich durch hohe 
Precision- und Recallwertc aus. 

• Das Graphähnlichkeitsmodell aus Kapitel (5) wurde von Emmert-Streib 
et al. (Emmert-Streib et al. 2005) verwendet, um eine effiziente Methode 
zur Klassifikation großer ungerichteter Graphen zu entwickeln. Die binäre 
Graphklassifikationsmethode wurde u.a. erfolgreich auf Microarray- Daten 
(Causton et al. 2003) aus Gebärmutterhalskrebs-Experimenten angewen- 
det, mit dem Ziel. Tumorstadien zu unterscheiden (Emmert-Streib et al. 
2005). 
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Kapitel 2 

Strukturelle Aspekte 
hypertextueller Einheiten 



Die Anwendung von klassischen Data Mining-Konzepten (Han & Kamber 2001) 
auf web-basierte Daten, wie z.B. die Clusteranalyse, wird als Web Mining (Cha- 
krabarti 2002) bezeichnet. Ein Teilbereich des Web Mining, der in dieser Arbeit 
besonders im Vordergrund steht, ist das Web Structure Mining, welches die Auf- 
deckung und die Erforschung struktureller Aspekte web-basierter Hypertexte zum 
Hauptziel hat. Ausgehend von einer kurzen Darstellung der Grundlagen von Hy- 
pertext und Hypermedia in Kapitel (2.1) hat das vorliegende Kapitel (2) das Ziel, 
eine verständliche Einführung von Data Mining-Konzepten im Hinblick auf die 
Anwendung im Web Mining zu geben. Das Teilgebiet Web Structure Mining wird 
dabei besonders hervorgehoben, insbesondere graphentheoretische Methoden zur 
strukturellen Analyse von Hypertexten. 



2.1 Hypertext und Hypermedia 

Bekanntlich ist beim klassischen Medium Buch die Struktur und in der Regel 
auch die Lesereihenfolge sequenziell. Dagegen ist die Kerneigenschaft von Hyper- 
text 1 , dass die textuellen Informationseinheiten, die so genannten Knoten, auf der 
Basis von Verweisen, auch Links genannt, in Form eines gerichteten Graphen, 
also nicht linear, miteinander verknüpft sind (Kuhlen 1991). Die einfachste gra- 
phentheoretische Modellierung einer Hypertextstruktur ist die Darstellung als 
unmarkierter gerichteter Graph TL := ( V . E), E C V x V. V heißt Knotenmenge 
und E heißt Kantenmenge. Weiter bezeichnet man ein Element v g V als Knoten 

Hi) dieser Arbeit bezeichnet ein ., Hypertext“ konkrete Ausprägungen oder Instanzen (vgl. 
im Web: eine „Website“); Hypertext subsummiert in der vorliegenden Arbeit, „Hypermedia“ . 
Software zur Handhabung von Hypertexten sei als „ Hypertextsystem “ bezeichnet. 
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und e £ E als gerichtete Kante. Der Hypertext-Begriff wird in den Geisteswissen- 
schaften und der modernen Informatik unterschiedlich interpretiert (Vogt 2000). 
So kann man abhängig von der Fachdisziplin und vom Autor durchaus auf unter- 
schiedliche Definitionen des Hypertextbegriffs stoßen. Hypertext wird somit oft 
als Technologie, Methode oder Metapher bezeichnet (Vogt 2000). Tatsächlich 
wurden in der Literatur unzählige Definitionen und Ausprägungen von Hyper- 
text gegeben, siehe z.B. (Charney 1987; Conklin 1987; Delisle k Schwartz 1987; 
Halasz 1988; Nelson 1987; Oren 1987; Smith et al. 1987). Bei dieser Fülle von 
Definitionen - wobei die Autoren unterschiedliche Aspekte herausstellen - betont 
Hofmann (Hofmann 1991) vier wichtige Kernpunkte, die er für eine vollständige 
Charakterisierung von Hypertext in der Informatik als notwendig ansieht: 

• Hypertexte haben die Gestalt von gerichteten Graphen (Netzwerke). Die 
Knoten enthalten bzw. repräsentieren die Informationen, die durch Verwei- 
se, die Links, miteinander verknüpft sind. 

• Sowohl das Lesen als auch das Schreiben von Hypertext sind nichtlineare 
Tätigkeiten. Eine Datenstruktur, die diese Vernetzung unterstützt, ist dabei 
die Voraussetzung. 

• Hypertexte sind nur in einem medialen Kontext, also maschinenunterstützt 
denkbar. Direkte Anwendungen davon sind klassische Hypertext- und Online- 
systeme. 

• Hypertexte besitzen einen visuellen Aspekt. Das bedeutet, dass Hypertext 
nicht nur ein Konzept der Informationsstrukturierung, sondern auch eine 
Darstellungs- und Zugriffsform von textuellen Informationen ist. 

Auch in der Sprachwissenschaft und in der Linguistik wurde Hypertext als eine 
neue Form der schriftlichen Sprachverwendung studiert, z.B. (Lobin 1999; Stor- 
rer 2004). Dabei wurden insbesondere linguistische Aspekte, wie Kohärenz- und 
Kohäsionsbeziehungen, in Hypertext untersucht. Eine bekannte Studie in diesem 
Problemkreis wurde von Storrer (Storrer 1999) durchgeführt. In dieser Arbeit 
geht es im Wesentlichen um die Fragestellung, ob die Ergebnisse über Untersu- 
chungen von Kohärenzbildungsprozessen in linear organisierten Texten auf den 
Entwurf von Hypertexten übertragbar sind. Weiterhin wurde die Problemstellung 
der automatischen Generierung von Hypertext aus natürlichsprachigem Text un- 
tersucht, insbesondere wie und unter welchen Kriterien Hypertext automatisiert 
konstruierbar ist. Ein linguistisches Kriterium, welches als Grundlage zur Ge- 
nerierung von Hypertext aus Texten dient, wurde von Mehler (Mehler 2001) 
angegeben. 

Historisch gesehen wurde die Hypertext-Idee aus heutiger Sicht zweifellos von 
Bush (Bush 1945) geschaffen. In seinem bekannten Artikel „As we may think“ 
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(Bush 1945) beschrieb er das System Memex (Memory Extender), welches zum 
Ziel hatte, wissenschaftliche Dokumente nichtlinear zu verknüpfen und zu spei- 
chern, um dadurch die schon damals ständig wachsende Anzahl an wissenschaftli- 
chen Publikationen für ein breites Publikum nutzbar zu machen. In seiner Ganz- 
heit wurde dieses System jedoch nie realisiert, zumal es inkompatible Technolo- 
gien (z.B. Buch und Microßche) hätte überbrücken müssen. Der eigentliche „Hy- 
pertext“-Begriff wurde in den sechziger Jahren durch Nelson geprägt. Er führte 
die Ideen Bush’s weiter, indem er die technischen Voraussetzungen schaffte, um 
Hypertext auf Computersystemen zu realisieren. Nelson gilt als Architekt des 
universellen Hypertextsystems Xanadu (Nelson 1974), das aber oft als unreali- 
stisch angesehen wurde, da es zum Ziel hatte, die Gesamtheit aller elektronischen 
Publikationen weltweit zu integrieren. Die Implementierung von Xanadu ist nur 
in Teilen erfolgt und wird bis heute fortgesetzt (Nielson 1993). Ein weiterhin 
sehr bekanntes Hypertextsystem ist Augment (Engelbart 1962), welches 1962 
bis 1976 von Englebart in Stanford realisiert wurde. Insgesamt gesehen wur- 
den viele Hypertextsysteme entwickelt, wobei bekannte Vertreter z.B. HyperCard, 
NoteCards, Neptune/HAM und HyperTies (Schnupp 1992: Steinmetz 2000) sind. 
Detaillierte Informationen bezüglich der genannten Hypertextsysteme findet man 
in (Hofmann 1991: Schnupp 1992: Steinmetz 2000). 

Der Begriff Hypermedia wird üblicherweise gebraucht, wenn in Hypermedia- Doku- 
menten 2 nicht nur Texte, sondern auch multimediale Objekte wie Graphiken, 
Ton- und Filmsequenzen nichtlinear miteinander verknüpft werden. In der Lite- 
ratur wird auf Grund dieses Sachverhalts bisweiten Hypertext (textbasiert) und 
Hypermedia (medienbasiert) als zwei disjunkte Kategorien betrachtet. Für diese 
Arbeit ist es sinnvoller Hypermedia unter Hypertext zu subsummieren. Hvper- 
text beschreibt dann Dokumente mit Graphstruktur, Hypermedia meint die Un- 
termenge, welche mehrere Medien cinbezieht. Multimediasysteme werden in der 
Literatur klar von Hypertextsystemen unterschieden (Hofmann 1991; Steinmetz 
2000), da in Multimediasysternen die Dokumentstrukturen modelliert werden, oh- 
ne deren strukturelle Aspekte hevorzuheben. Tiefere Einblicke über Hypermedia- 
und Multimediasysteme geben z.B. Steinmetz (Steinmetz & Nahrstedt 2004) 
und Schulmeister (Schulmeister 2002). wobei Schulmeister insbesondere 
didaktische und lernbezogene Aspekte von Hypermedia behandelt. 

Als Anwendungsgebiete von Hypertext und Hypermedia kommen mittlerweile 
unterschiedlichste Wissenschafts- und Industriebereiche in Frage. Anwendungsge- 
biete sind beispielsweise Büro und Management, Konstruktions- und Fertigungs- 
bereiche, Schule und Weiterbildung, technische Dokumentenverwaltung , elektroni- 
sche Enzyklopädien und Bücher , hypertextuelle Produktkataloge und die Wissens- 
repräsentation (Kommers 1990; Schnupp 1992; Unz 2000). Weitere Überblicke 

2 Im Sprachgebrauch ist „Hypertext“ wie bereits definiert gebräuchlich, aber nicht „Hyper- 
media“, sondern „Hypormedia-Dokumente“. 
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über die unterschiedlichen Anwendungsfelder sind in (Nielson 1996; Steinmetz 
2000; Steinmetz & Nahrstedt 2004) zu finden. 



2.2 Problemstellungen des Web Mining 

Durch die Entstehung des World Wide Web (Bernes-Lee 2000), auch Web oder 
kurz WWW genannt, ist die Popularität von Hypertext in den neunziger Jahren 
deutlich gestiegen. 1989 wurde von Berners-Lee, einem damaligen Mitarbeiter 
des Forschungszentrums für Teilchenphysik (CERN) in Genf/Schweiz, die Idee 
des World Wide Web als Hypertextsystem geboren (Bernes-Lee 1989). 

Da in der vorliegenden Arbeit die Entwicklung graphentheoretischer Modelle für 
web-basierte Dokumentstrukturen fokussiert wird, erfolgt zunächst ein kurzer 
Überblick über die Eigenschaften und Probleme des World Wide Web hinsicht- 
lich der Informationssuche. Weiterhin werden die Kernbereiche des Web Mining 
detailliert dargestellt, wobei in dieser Arbeit das Web Structure Mining beson- 
ders thematisiert wird. Dies geschieht vor dem Hintergrund, dass das graph- 
basierte Modell aus Kapitel (5) zur Berechnung der strukturellen Ähnlichkeit 
web-basierter Hypertexte, zur Lösung von Problemstellungen im Web Structure 
Mining beiträgt. 

2.2.1 Probleme des World Wide Web bezüglich 
der Informationssuche 

Im klassischen Information Retrieval (IR) (Baeza-Yates & Ribeiro-Neto 1999; 
Ferber 2003) werden auf der Basis von Informationssystemen Fragestellungen der 
inhaltsorientierten Auffindung und Gewinnung (Retrieval) von Informationen in 
großen Datenbeständen untersucht. Dabei ist eine Benutzeranfrage an das System 
von zwei im Information Retrieval enthaltenen wesentlichen Begriffen geprägt 
(Baeza-Yates & Ribeiro-Neto 1999; Ferber 2003; Schäuble 1997): 

• Vagheit : Das Informationsbedürfnis kann durch den Benutzer nicht präzise 
und formal formuliert werden. 

• Unsicherheit : Sie wird meistens durch die nicht aussagekräftige Semantik , 
also durch fehlende inhaltliche Informationen in den vorliegenden Doku- 
menten oder Texten induziert. 

Vereinfacht gesehen, kann man das World Wide Web als sehr große und inho- 
mogene Datenbank betrachten, die täglich viele Millionen Benutzeranfragen über 
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die verfügbaren Suchdienste erhält. Baeza-Yates et al. (Baeza-Yates & Ribei- 
ro-Neto 1999) stellen die Probleme des World Wide Web hinsichtlich der In- 
formationssuche detailliert vor: Einerseits bezüglich der Daten und andererseits 
bezogen auf systemabhängige Benutzeranfragen und deren Interpretation. Der 
erstgenannte Problemkreis wird dabei in folgende Unterpunkte untergliedert: 

• Verteilte Daten : Die Daten sind auf Grund der netzwerkartigen Struktur 
des Webs auf viele Plattformen verteilt, wobei die Rechner in unbekannter 
Weise miteinander vernetzt sind und ihre Funktionssicherheit stark variiert. 

• Hoher Anteil an unbeständigen Daten : Große Datenmengen ändern sich 
innerhalb kurzer Zeit. 1999 wurde ermittelt, dass sich zu dieser Zeit ca. 
40% vom Gesamtinhalt des World Wide Web monatlich änderte. 

• Große Datenmengen: Das Web unterliegt einem exponentialen Datenwachs- 
tum, das Skalierungsprobleme induziert. 

• Unstrukturiertheit und Redundanz: Die meisten Dokumente im Web sind 
unstrukturiert und inkonsistent, insbesondere HTML-Seiten. Große Daten- 
mengen werden kopiert oder gespiegelt, wodurch beachtliche Mengen an 
redundanten Daten entstehen. 

• Qualität der Daten: Da es eine unzureichende Datenkontrolle gibt, die z.B. 
inhaltlich fehlerhafte Dokumente im World Wide Web vor dem Upload fil- 
tert, kann jeder beliebige Benutzer Daten einstellen, was die Qualität der 
Ergebnisse von Suchanfragen sehr beeinträchtigt. 

• Heterogenität der Daten: Die Daten besitzen unterschiedliche Datentypen , 
z.B. Text, Graphik und Video und unterschiedliche Sprachalphabete. 

Der zweite Problemkreis umfasst im Wesentlichen die Kernpunkte: 

• Richtige Formulierung von Benutzeranfragen und deren Interpretierbarkeit. 

• Interpretation von Systemantworten - u.a. die Selektion von „nutzbaren“ 
Treffern - und Umgang/Optimierung von großen Treffer listen. 

Auf Grund der aufgeführten Probleme wird klar, dass das Ziel, brauchbare Benut- 
zeranfragen zu formulieren und Systemantworten auf der Basis von I n f ormation 
Retrieval- Methoden zu optimieren, eine große Herausforderung darstellt. Um ei- 
ne bessere Vorstellung von den Komponenten einer Suchmaschine zu bekommen, 
sei die Abbildung (2.1) (Baeza-Yates & Ribeiro-Neto 1999) betrachtet. Am Bei- 
spiel dieser Abbildung werden die wesentlichen Komponenten der Suchmaschine 
kurz Umrissen, die hier aus zwei Blöcken bestehen: (i) aus dem Benutzer- Interface 
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WWW 

Abbildung 2.1: Crawler-Indexer Architektur auf der Basis der Suchmaschine Alta Vista 



und der so genannten Query Engine und (ii) aus dem Crawler und dem Indexen. 
Wenn die Anfrage über das Benutzer-Interface zur Query Engine übertragen wird, 
führt die Query Engine eine Datenbankabfrage aus, mit dem Ziel, eine Rangord- 
nung der Ergebnisdokumente zu erzeugen. Die Güte solcher Abfragen wird oft 
mit den Performancemaßen (Ferber 2003) Recall und Precision 3 , die aus dem In- 
formation Retrieval stammen, gemessen. Der Indexer bestimmt dabei, welche In- 
haltsfragmente zur Indexierung gewählt werden, z.B. Plaintext , Ankertexte oder 
Meta- Tags. Das Sammeln der web-basierten Dokumente übernimmt der Crawler, 
wobei die Breiten- und Tiefensuche bekannte Suchstrategien von Crawlern sind. 
Detaillierte Ausführungen über die Hintergründe von Suchstrategien im World 
Wide Web sind bei Chakrabarti (Chakrabarti 2002) und Baeza-Yates et 
al. (Baeza-Yates & Ribeiro-Neto 1999) zu finden. Eine umfassende Darstellung 
der Infomationssuche im World Wide Web mit Hinweisen zur Optimierung von 
Benutzeranfragen an Suchmaschinen liefert Gloggler (Göggler 2003). 

2.2.2 Bereiche des Web Mining und deren Kernaufgaben 

In der wissenschaftlichen Literatur werden die Begriffe „Data Mining“ und „Wis- 
sensentdeckung“ oft unterschiedlich definiert (Berry & Linoff 1997; Fayyad et al. 

3 Die Definitionen von Recall und Precision werden in Kapitel (3.5) auf der Basis einer 
Kontingenztabelle angegeben. 
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1996). So geben z.B. Wrobel et al. (Wrobel et al. 2003) die Definition des Be- 
griffs „Wissensentdeckung“ folgendermaßen an (Fayyad et al. 1996; Wrobel et al. 
2003): 



,, Wissensentdeckung in Datenbanken ist der nichttriviale Prozess der 
Identifikation gültiger, neuer, potenziell nützlicher und Schluss endlich 
verständlicher Muster in ( großen ) Datenbeständen .“ 

Als Teilschritt des Wissensentdeckungs- Prozesses bezeichnen WROBEL et al. (Wro- 
bel et al. 2003) Data Mining als den eigentlichen Analyseschritt, das heißt, die 
Suche und Bewertung von Hypothesen. Entsprechend werden in kommerziellen 4 
Bereichen Data Mining- Verfahren (Berthold & Hand 1999; Han & Kamber 2001; 
Witten & Eibe 2001) oft eingesetzt, um die gigantischen Datenmengen in vielen 
industriellen und wissenschaftlichen Bereichen zu analysieren und dabei neues 
Wissen zu generieren. Beispielsweise liegen in vielen Unternehmen große Men- 
gen von Kundendaten vor, jedoch ist das Wissen über die Anforderungen und 
über das Verhalten der Kunden oft unzureichend. Solche Datenbestände werden 
in Data Warehousing-Systcmen gespeichert und mit Methoden des Data Mining 
untersucht. Das Ziel einer solchen Untersuchung ist die Entdeckung von stati- 
stischen Besonderheiten und Regeln innerhalb der Daten, die beispielsweise für 
Studien des Kunden- oder Kaufverhaltens eingesetzt werden. Die Schwerpunkte 
der Data Mining-Methoden, die oft in der Praxis angewendet werden, lassen sich 
mit Hilfe der folgenden Übersicht erläutern: 

• Die Suche nach Assoziationsregeln (Hastie et al. 2001): Ein bekanntes 
Beispiel ist die so genannte Warenkorbanalyse, die zum Ziel hat, aus dem 
aktuellen Kaufverhalten Assoziationsregeln für zukünftiges Kaufverhalten 
abzuleiten. 

• Die Clusteranalyse (Everitt 1993): Der entscheidende Unterschied zwischen 
der Clusteranalyse und der Kategorisierung ist, dass bei der Clusteranalyse 
das Klassensystem von vornherein unbekannt ist. Das Ziel ist die Grup- 
pierung 5 der Datenobjekte in Gruppen (Cluster), so dass sich die Objek- 
te innerhalb eines Clusters möglichst ähnlich und zwischen den Clustern 
möglichst unähnlich sind. Dabei basiert die Ähnlichkeit zwischen den Ob- 
jekten auf einem jeweils problemspezifischen Ähnlichkeitsmaß. 

• Die Kategorisierung (Duda et al. 2001): Sie stellt Verfahren für die Einord- 
nung von Objekten in Kategoriensysteme bereit. Die Kategorisierung stellt 

4 Wissensentdeckung und Data-Mining werden im kommerziellen Bereich meistens nicht un- 
terschieden (Wrobel et al. 2003). 

5 Die Gruppierung wird in dieser Arbeit auch als Clusterurig bezeichnet. 
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mit Hilfe von Zusammenhängen zwischen gemeinsamen Mustern und Merk- 
malen ein Kategoriensystem für die vorhandenen Objekte her, um dann auf 
der Basis eines statistischen Kategorisierungsmodells unbekannte Objekte 
in das Kategoriensystem einzuordnen. Bekannte Kategorisierungsverfahren 
stammen dabei aus dem Bereich des Maschinellen Lernens (Hastie et al. 
2001 ). 

• Die Regressionsanalyse (Hastie et al. 2001): Die Regressionsanalyse ist 
ein Verfahren aus der mathematischen Statistik, welches auf Grund von 
gegebenen Daten einen mathematischen Zusammenhang in Gestalt einer 
Funktion zwischen zwei oder mehreren Merkmalen herstellt. Ein bekanntes 
Beispiel ist die lineare Regression (Hastie et al. 2001). 

Durch die äußerst starke Entwicklung des World Wide Web gewinnt die Anwen- 
dung von Data Mining- Verfahren auf web-basierte Daten immer mehr an Bedeu- 
tung. Während das Allgemeinziel des Web Mining die Informationsgewinnung 
und die Analyse der Webdaten ist, werden drei bekannte Teilbereiche detailliert 
unterschieden (Cooley et al. 1997; Kosala & Blockeel 2000; Rahm 2002; Spilio- 
poulou 2000): 

• Web Content Mining'. Das World Wide Web enthält mittlerweile viele Mil- 
liarden von Webseiten, täglich kommen hunderttausende dazu. Das Web 
Content Mining stellt Methoden und Verfahren bereit, mit deren Hilfe Infor- 
mationen und damit neues Wissen aus dieser Datenflut automatisch extra- 
hiert werden können. Diese Verfahren finden beispielsweise bei der Informa- 
tionssuche mit Suchmaschinen im World Wide Web Anwendung. Während 
bekannte Suchmaschinen, wie z.B, Yahoo, auf einer einfachen textuellen 
Schlagwortsuche basieren, stellt die Konzeption neuer, besserer Verfahren 
für die Informationssuche im Bereich des Web Content Mining immer noch 
eine große Herausforderung dar. Die aktuellen Suchmaschinen sind nämlich 
kaum in der Lage, semantische Zusammenhänge zwischen web-basierten 
Dokumenten zu detektieren bzw. die Dokumente nach semantischen Ge- 
sichtspunkten zu kategorisieren. 

• Web Structure Mining : Die Aufgabe des Web Structure Mining ist es, struk- 
turelle Informationen von Websites zu nutzen, um inhaltliche Informationen 
zu gewinnen, wobei die interne und externe Linkstruktur dabei eine wichtige 
Rolle spielt. Interne Linkstrukturen können mit Auszeichnungssprachen wie 
HTML oder XML abgebildet werden und beschreiben innerhalb eines Knotens 
eingebettete graphentheoretische Strukturen. Die externe Linkstruktur be- 
schreibt die Verlinkung der Webseiten untereinander und lässt sich in Form 
eines hierarchisierten und gerichteten Graphen darstellen. Die Graphstruk- 
tur des World Wide Web wurde in den letzten Jahren in vielen Arbei- 
ten intensiv untersucht (Adamic & Huberman 2000; Deo & Gupta 2001; 
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Kumar et al. 2000b; Raghavan 2000), wobei diese Studien zur Entwick- 
lung und Verbesserung von Suchalgorithmen im World Wide Web führten 
(Brin & Page 1998; Carriere & Kazman 1997; Kleinberg 1999; Sper- 
tus 1997). Weiterhin wurden Ausgangsgrad- und Eingangsgradverteüungen 
(Deo & Gupt-a 2001) von Knoten, Zusammenhangskomponenten (Deo & 
Gupta 2001) und der Durchmesser (Deo & Gupta 2001) des WWW- 
Graphen untersucht. Detaillierte Ergebnisse solcher Untersuchungen sind 
z.B. in (Broder et al. 2000; Deo & Gupta 2001; Huberman & Adamic 
1999; Kumar et al. 2000b, a; Raghavan 2000; Watts 1999; Watts & Stro- 
gatz 1998) zu finden. Eine der bekanntesten Arbeiten, die im Bereich des 
Web Structure Mining eine wichtige Anwendung innerhalb der bekannten 
Suchmaschine Google gefunden hat, stammt von KLEINBERG (Kleinberg 
1999). Dabei führte er die Begriffe Hubs und Authorities ein. Kleinberg 
bezeichnet Authorities als Webseiten, die aktuelle und „inhaltlich brauch- 
bare“ Informationen enthalten, wobei sich diese graphentheoretisch durch 
hohe Knoten-Eingangsgrade auszeichnen. Dagegen werden Hubs als solche 
Webseiten bezeichnet, die viele „nützliche Links“ zu gewissen Themenge- 
bieten offerieren. Ein guter graphentheoretischer Indikator für potenzielle 
Hubs ist nach Kleinberg ein hoher Knoten-Ausgangsgrad der betrachte- 
ten Webseite. 

• Web Usage Mining : Unter dem Web Usage Mining (Rahm 2002) versteht 
man die Suche und Analyse von Mustern, die auf das Nutzungsverhalten 
eines WWW-Bcnutzers schließen lässt. Üblich ist dabei die Anwendung 
von Data Mining- Verfahren mit dem Ziel, das Zugriffsverhalten mit Hil- 
fe von Web-Logs zu protokollieren. Die Ergebnisse solcher Analysen sind 
für Unternehmen, besonders aber für Online- Versandhäuser aller Art in- 
teressant, weil aus ihnen Aussagen zur Effektivität, zur Qualität und zum 
Optimierungsbedarf der Websites abgeleitet werden können. Da bei vielbe- 
suchten Websites täglich große Datenmengen von Web-Logs anfallen, kann 
der Einsatz von Data Warehouse-Systcmen notwendig werden, um diese 
Datenmengen zielgerecht und effizient zu verarbeiten. 

Die Bedeutung und Vertiefung des für diese Arbeit relevanten Web Structure Mi- 
ning soll hier anhand von zwei weiteren Problemstellungen hervorgehoben wer- 
den, und zwar im Wesentlichen als Motivation für die weiteren Kapitel: 

1 . Das Allgemeinziel des Web Structure Mining ist die Erforschung der struk- 
turellen Eigenschaften von web- basierten Dokumentstrukturen und den dar- 
aus resultierenden Informationen. An diesem Ziel orientierend, soll hier auf 
ein Problem aufmerksam gemacht werden, das bei der inhaltsorientierten 
Kategorisierung von web-basierten Hypertexten auftritt. Mehler et al. 
(Mehler et al. 2004) stellten die Hypothese auf, dass die beiden Phänomene 
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funktionale Äquivalenz und Polymorphie charakteristisch für web-basierte 
Hypertextstrukturen sind. Dabei bezieht sich der Begriff der funktionalen 
Äquivalenz auf das Phänomen, dass dieselbe Funktions- oder Inhaltska- 
tegorie durch völlig verschiedene Bausteine web-basierter Dokumente ma- 
nifestiert werden kann. Der Begriff der Polymorphie bezieht sich auf das 
Phänomen, dass dasselbe Dokument zugleich mehrere Funktions- oder In- 
haltskategorien manifestieren kann. Dabei werden die Problemstellung und 
die neuen Begriffe in Kapitel (2.5) definiert. Das Kategorisierungsexperi- 
ment, das die oben genannte Hypothese untermauert, wird in Kapitel (3.4) 
charakterisiert. 

2. Im Hinblick auf die Bestimmung der Ähnlichkeit web-basierter Hypertexte 
fassen Dokument Retrieval - Anwendungen die Dokumentstrukturen als die 
Mengen ihrer Wörter auf und berechnen auf der Basis des Vektorraummo- 
dells deren Ähnlichkeit. Als Motivation für graphorientierte Problemstel- 
lungen im Web Structure Mining und für die Kapitel (2.4), (5), wird an 
dieser Stelle ein Verfahren zur Bestimmung der strukturellen Ähnlichkeit 
web-basierter Dokumente erwähnt, das nicht auf der vektorraumbasierten 
Repräsentation beruht, sondern auf der Graphdarstellung der hypertextuel- 
len Dokumente. Ausgehend von der automatisierten Extraktion der Hyper- 
texte und einer GXL-Modellierung (Winter 2002) der Graphen, werden hier- 
archisierte und gerichtete Graphen erzeugt, die komplexe Linkstrukturen 
berücksichtigen (Mehler et al. 2004). Basierend auf diesen Graphrepräsen- 
tationen wird in Kapitel (5) das neue Verfahren (Dehmer & Mehler 2004; 
Emmert-Streib et al. 2005) zur Bestimmung der strukturellen Ähnlichkeit 
solcher Graphen entwickelt. Die für das Web Structure Mining resultieren- 
den Anwendungsgebiete werden als Motivation für das neue Verfahren in 
Kapitel (5.1) dargestellt. 



2.3 Existierende graphentheoretische 

Analysemethoden von Hypertextstrukturen 



Wie in Kapitel (2.1) bereits dargestellt, lässt sich die auszeichnende strukturel- 
le Eigenschaft von Hypertext, die Nichtlinearität, in Form eines Netzwerks mit 
Hilfe einer graphentheoretischen Modellierung beschreiben. Damit liegt die Fra- 
ge nach der Einsetzbarkeit von graphentheoretischen Analysemethoden auf der 
Hand. Das vorliegende Kapitel (2.3) fokussiert die Realisierbarkeit graphbasier- 
ter Modellierungen und gibt einen Eindruck über die Tragfähigkeit der Aussagen, 
die man mit einfachen graphentheoretischen Modellen, angewendet auf die Hy- 
pertextstruktur, erzielen kann. 
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2.3.1 Motivation 



Als erste Anwendung für graphorientierte Methoden sei die Analyse des „ Lost 
in Hyperspace “-Problems (Rivlin et al. 1994; Unz 2000) genannt . Aus der Na- 
tur der graphbasierten Modellierung, einer hohen Komplexität der vorliegenden 
Hypertextstruktur, einem fehlenden koiitext.uellen Zusammenhang der Links und 
der Tatsache, dass der Navigierende nur einen eingeschränkten Bereich im Hyper- 
textgraph rezipiert, folgt, dass der Hypertextbenutzer die Orientierung verlieren 
kann. Graphentheoretische Analysemethoden, die als Abstraktionswerkzeug zu 
verstehen sind, werden oft eingesetzt, um das „Lost in Hyperspace“-Problem 
besser unter Kontrolle zu halten. Dazu werden graphentheoretische Kenngrößen 
definiert, die beispielsweise Aussagen über die Erreichbarkeit von Knoten und de- 
ren Einfluss im Hypertextgraph treffen (Botafogo & Shneiderman 1991; Botafogo 
et al. 1992; Rivlin et al. 1994). Die Definition von Indizes (Dehmer 2005; Mehler 
2004) zur Beschreibung typischer Ausprägungen von Hypertextgraphen kann als 
weitere Motivation für den Einsatz graphbasierter Methoden angesehen werden. 
Beispielsweise können solche Maße von Hypertextautoren eingesetzt werden, um 
den Vernetztheitsgrad und die Linearität einer Hypertextstruktur zu bestimmen 
(Botafogo et al. 1992). Eine weitaus tiefer gehende Fragestellung wäre an dieser 
Stelle, ob man auf der Basis von graphentheoretischen Indizes eine Gruppierung 
von ähnlichen Strukturen vornehmen könnte, um dann auf ähnliche Funktionen 
und Qualitätsmerkmale zu schließen. In jedem Fall müssen aber Fragen nach der 
Einsetzbarkeit und der Inte.rpretierbarke.it solcher Maßzahlen gestellt werden, die 
in Kapitel (2.3.3) kurz diskutiert werden. 

Das Kapitel (2.3.2) gibt im Wesentlichen einen Überblick über die bekannten Ar- 
beiten der graphentheoretischen Analyse von Hypertextstrukturen, wobei es nicht 
den Anspruch auf Vollständigkeit erhebt. Einerseits werden damit Möglichkeiten 
vorgestellt, wie man mit einfachen graphbasierten Mitteln Hypertexte auf Grund 
charakteristischer Eigenschaften beschreiben und solche Maße auf Probleme der 
Hypertextnavigation anwenden kann. Andererseits zeigen einige der nachfolgen- 
den Arbeiten die Grenzen von graphentheoretischen Maßzahlen auf, die sich z.B. 
in der Allgemeingültigkeit ihrer Aussagekraft und in der Interpretierbarkeit ihrer 
Wertebereiche äußern. 

Abgesehen von der graphentheoretischen Analyse von Hypertextstrukturen, be- 
steht nach Meinung vieler Autoren im Hypertextumfeld ein deutlicher Mangel 
an grundlegenden formalen Konzepten, um komplexere hypertextuelle Struktur- 
merkmalc. wie beispielsweise die semantische und pragmatische Unterscheidung 
von Knoten und Links, mit mathematischen Modellen auszudrücken, siehe z.B. 
Tochtermann et al. (Tochtermann & Dittrich 1996). Dennoch gibt es viele 
Arbeiten, in denen verschiedenartige Aspekte von Hypertext und Hypertextsy- 
stemen formalisiert wurden, z.B. (dTnverno et al. 1997; Frorik 2001, 2003; Lange 
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1990; Mühlhäuser 1991; Mehler 2001; Parunak 1991; Stotts & Furuta 1989), 
die aber oft nur spezielle Fälle oder Modellierungsaspekte adressieren. 

Ein Teilgebiet der strukturellen Analyse von Hypertexten ist speziell die Un- 
tersuchung von Hypertextstrukturen mit graphentheoretischen Methoden. Dabei 
werden die Hypertexte oft in Matrixstrukturen abgebildet, meistens mit dem Ziel, 
Maßzahlen zu bilden, die zur strukturellen Charakterisierung oder zur Beschrei- 
bung von Graphmustern dienen. Die in der Fachliteratur existierenden Ansätze 
und Arbeiten, die sich mit der graphentheoretischen Analyse und Beschreibung 
von Hypertextstrukturen beschäftigen, verfolgen im Wesentlichen zwei Ziele: 



• Die strukturelle Beschreibung und Charakterisierung von Hypertexten durch 
globale graphentheoretische Maße 6 . Sie heißen global, weil sie auf der ge- 
samten Hypertextstruktur definiert sind und die Hypertexte ganzheitlich 
charakterisieren. Bekannte Beispiele sind die Hypertextmetriken Compact- 
ness und Stratum von (Botafogo et al. 1992). 

• Die Suche, die Bestimmung und die graphentheoretische Interpretation von 
Graphmustern in Hypertexten: Solche spezifischen Graphmuster werden 
oft bei der Beschreibung von Hypertext-Navigationsproblemen (McEnea- 
ney 1999, 2000; Unz 2000) und im Zusammenhang von Lernproblemen 
(Noller et al. 2001; Richter et al. 2003; Winne et al. 1994) mit Hypertext 
analysiert und interpretiert. 

In Kapitel (2.3.2) werden nun bekannte Arbeiten vorgestellt, die einerseits die 
Definition graphentheoretischer Indizes und andererseits die Untersuchung von 
Hypertext-Navigationsproblemen thematisieren. 



2.3.2 Maße für die strukturelle Analyse von Hypertexten 



Die ersten einschneidenden Arbeiten im Bereich der strukturellen Analyse stam- 
men von Botafogo et al. (Botafogo & Shneiderman 1991; Botafogo et al. 
1992; Botafogo 1993). In (Botafogo et al. 1992) wurden die bekannten Hyper- 
textmetriken Compactness und Stratum definiert, wobei in dieser Untersuchung 
Hypertextgraphen als unmarkierte gerichtete Graphen Tt = (V,E), E CV xV 
aufgefasst werden. Mit Hilfe der konvertierten Distanzmatrix 






( Wij : falls Wij existiert 
| IC : sonst, 



( 2 . 1 ) 



6 Solche graphentheoretischen Maße heißen auch Indizes (Dehmer 2005; Mehler 2004). 
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